بازشناسی متون فارسی با استفاده از روشهای گرامری و معنایی
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه سمنان - دانشکده مهندسی برق و کامپیوتر
- نویسنده پریسا شیروانی
- استاد راهنما خشایار یغمایی عصمت اسماعیلی
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
یکی از رایجترین اشکال انتقال اطلاعات، کاغذ می باشد. حجم زیادی از اطلاعات از طریق کاغذ منتقل می شوند. مستندات کاغذی از تنوع زیادی برخوردار هستند به عنوان مثال اطلاعات روی کاغذ می تواند شامل متون چاپی یا دست نویس، جداول، منحنی ها، تصاویر و ... باشد. ترکیب این اطلاعات بر روی اسناد کاغذی و همچنین استفاده از انواع مختلف قلم ها و ویژگی های خاص باعث دشواریهایی در بازیافت اطلاعات می گردد. علاوه بر این مسائلی از قبیل کیفیت چاپ، کاغذ، جوهر و همچنین کیفیت اسکن یک سند و ... عواملی هستند که کار بازشناسی متن را مشکل تر و پیچیده تر می سازند. ویژگیهای خط فارسی از دیگر موارد مشکل ساز در بازشناسی متون فارسی هستند. تا کنون کارهای زیادی برای متون زبان لاتین، چینی و ژاپنی انجام شده است، اما برای بازشناسایی متون فارسی و عربی با این که بسیاری از جمعیت جهان برای نوشتن از این زبانها استفاده می کنند، کارهای انجام شده نسبتا کم و پراکنده بوده است. از جمله علل این امر پیچیدگی های نوشتاری این زباها، فقدان پایگاه داده و لغت نامه های استاندارد و جامع برای متون فارسی و عربی ذکر شده است. در این پایان نامه الگوریتمی به منظور بازشناسی متون فارسی از ترکیب دو شاخه علمی پردازش تصویر و پردازش زبانهای طبیعی ارائه شده است. الگوریتم پیشنهادی شامل مراحل استخراج شبه کلمات به عنوان یکی از مهمترین اجزای الگوریتم شناسایی متن، ساخت کلمات از ترکیب شبه کلمات استخراج شده و سپس ترکیب کلمات به منظور ساخت جملات بالقوه معنی دار و در نهایت استفاده از دو مدل زبانی بایگرام و ترایگرام و چند قاعده گرامری به منظور تشخیص جمله صحیح بر اساس انطباق با گرامر رایج زبان فارسی می باشد. در الگوریتم ارائه شده، استفاده از قواعد گرامری مانند حذف ترکیبهای دستوری اشتباه منجر به بهبود نتایج حاصل از بازشناسی شد.
منابع مشابه
بازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری
Abstract Text recognition has been one of the growing research topics in recent years. Many of these researches have focused on recognition of letters and sub-words as a basis for identifying larger text structures such as words, phrases and sentences. This thesis presents a new method in which the recognized sub-words are combined in order to provide meaningful words and sentences in Farsi tex...
متن کاملبازشناسی متون فارسی با استفاده از مدل زبانی n-gram و پالایش گرامری
بازشناسی متون، در سال های اخیر بسیار مورد توجه قرار گرفته است. ارائه الگوریتم های بازشناسی برگرفته از ساختار گرامری و معنایی این زبان می تواند روش موثری در پردازش های دیگر مربوط به خط و زبان فارسی باشد. در این مقاله با استفاده از شاخه علمی پردازش زبان-های طبیعی، یک الگوریتم سه مرحله ای به منظور بازشناسی متون فارسی بر مبنای بازشناسی جملات فارسی ارائه می شود. این روش شامل مراحل ترکیب زیرکلمات به ...
متن کاملبازشناسی متون چاپی فارسی با استفاده از مدل پنهان مارکوف
این پایان نامه روشی برای بازشناسی متون چاپی فارسی و زبان های دارای الفبای مشابه آن مانند عربی ارائه می دهد. بازشناسی آخرین مرحله در فرآیند ocr است که در آن به وسیله ویژگی های به دست آمده از تصویر، متن موجود در آن تشخیص داده می شود. تصویر مورد استفاده، در مراحل قبل پیش پردازش شده، انواع نویزها و چرخش آن برطرف گشته، و در نهایت دودویی شده است. در این روش، نوع و اندازه قلم یا قلم های استفاده شده در...
روشهای تعلیم و تربیت در متون ادب فارسی
فلسفة تعلیم و تربیت را میتوان رشتهای مستقل فرض نمود که در آن اساس تعلیم و تربیت،رابطة تعلیم و تربیت با دیگر رشتههای معرفت انسانی،روشهای تربیتی و نحوة برخورد با مسائل و مشکلات تربیتی است. در باب تعلیم و تربیت نمی توان از مبنایی واحد سخن گفت، بلکه تعلیم و تربیت را میتوان به مبانی متعددی چون روان شناسی، جامعهشناسی، دینشناسی،انسان شناسی و امثال آن تقسیم کرد.بررسی انواع روشهای تربیتی و ت...
متن کاملبازشناسی متون چاپی فارسی
برای بازشناسی کلمات سه رویکرد مبتنی بر جداسازی، مبتنی بر بازشناسی کلمه یک الگوی واحد و رویکرد ترکیبی مطرح است . در این رساله یک سیستم برای بازشناسی متون چاپی فارسی با استفاده از رویکرد ترکیبی ارائه شده است . یک الگوریتم جدید برای جداسازی حروف در کلمات چاپی بدون توجه به نوع قلم ارائه شده است . مراحل مختلف الگوریتم شامل تعیین نوار زمینه، تصحیح آن و جداسازی حروف است . در تعیین نوار زمینه روش جدیدی...
15 صفحه اولروشهای تعلیم و تربیت در متون ادب فارسی
فلسفة تعلیم و تربیت را میتوان رشتهای مستقل فرض نمود که در آن اساس تعلیم و تربیت،رابطة تعلیم و تربیت با دیگر رشتههای معرفت انسانی،روشهای تربیتی و نحوة برخورد با مسائل و مشکلات تربیتی است. در باب تعلیم و تربیت نمی توان از مبنایی واحد سخن گفت، بلکه تعلیم و تربیت را میتوان به مبانی متعددی چون روان شناسی، جامعهشناسی، دینشناسی،انسان شناسی و امثال آن تقسیم کرد.بررسی انواع روشهای تربیتی و ت...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه سمنان - دانشکده مهندسی برق و کامپیوتر
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023